其他
根据生物学重复数和文库大小优化RNA-seq差异基因表达分析 | 转录调控专题
论文标题:Optimization of an RNA-Seq Differential Gene Expression Analysis Depending on Biological Replicate Number and Library Size刊登日期:2018年02月发表期刊:Frontiers in Plant Science影响因子:6.627研究机构:法国图卢兹大学技术手段:RNA-seq、3款差异基因表达鉴定软件(DESeq、DESeq2、edgeR)原文链接:https://www.frontiersin.org/articles/10.3389/fpls.2018.00108/full
主要研究内容:01
番茄子房及幼果基因表达谱(TOGE)数据的DE基因数
作者收集番茄子房和生长4天后的幼果作为样本,分别设置了8个生物学重复。通过RNA-seq获得的DEGs如下图所示。基于文库大小和重复数,图1A、B分别显示了DEGs的数量变化;图1C、D则分别显示了DEGs数量的稳定性。结果发现文库大小对低表达基因数量的影响比高表达基因更大,而重复数对高/低表达基因数量的影响相同。对于所有基因,基于重复数的DEGs数量稳定性曲线的增加率(图1D)高于DE基因数曲线的增加率(图1B),而基于文库大小的DEGs数量稳定性曲线的增加率(图1C)和DE基因数曲线的增加率(图1A)基本一致。这表明增加重复数获得的稳健的DEGs的效益要高于增加文库大小获得的效益。
TOGE数据的功率分析图2显示了番茄子房和幼果之间进行的DE功效分析。图2A、B分别基于文库大小和重复数显示了功效的演变,图2C、D则分别基于文库大小和重复数显示了功效的稳定性。与图1所得结果一样,重复数对高表达基因功效的影响远高于文库大小,低表达基因的功效则受到了两个参数同样的影响。
TOGE数据的敏感性(TPR)和特异性(FPR)接下来,作者分析了四种经典的DE分析方法(DESeq、DESeq2、两种来自edge R的R包的GLM和exact test方法)的灵敏度和特异性。结果显示四种方法种估计的真实DEGs几乎相同,其中DESeq方法的判定更严格,判定了全部DEGs的86%为真实DEGs。作者对于四种研究方法中的每一种,根据重复次数(2-7)以0.01为固定阈值来控制FDR的显著DE基因百分比(%DE)和估计的TPR和FPR值。此外对每种方法和每个重复次数下的估值随机重复30次。结果如图4A所示,DESeq2 捕获了更多的DEGs,并且所有四种方法的TPR都显著增加,7个重复时才捕获到几乎100%的DEGs。图4B显示,4种方法评估的FPR均取决于重复次数,其中2、3次重复次数下的FPR值大于1%,如果重复5次以上,所有FPR估计值都等于0。
根据重复数从接受者操作特征(ROC)曲线评估控制FDR的最佳阈值上一节,作者针对FDR的固定阈值(0.01)计算TPR和FPR,下面作者研究了区间[0,1]中不同阈值对TPR和FPR的影响,图5显示使用DESeq2方法从2到7的每个重复次数获得的ROC曲线,结果发现增加重复数可以得到更佳的ROC曲线,最佳曲线对应于7个重复。其它3种方法也得到了相同的结果。控制FPR的最佳阈值大约等于2-r(r为重复次数),2次重复为 0.25,3次重复为 0.12,4次重复为 0.06,依此类推,最后7次重复的最佳阈值是0.007。图6则显示了所有4种方法在2-7次重复中的ROC曲线。可以看出,对于每个重复数,DESeq 方法给出了最佳结果。直到重复数为5时,4种方法之间才具有极小的差异。
TOGE数据的GO富集分析为了评估文库大小和重复数对GO BP类别检测的影响,作者使用goseq R软件包对文库大小和重复数的每个不同组合进行了GO富集分析。图 6 显示了真阳性和假阳性BP类别数量根据文库大小和重复数量的变化。8个重复的绿色条对应于获得的参考基因列表。结果显示,对于给定的重复次数,文库大小从2.5 M增加到20 M不会显著影响富集BP类别的数量。然而,当重复数从2增加到7时,BP类别的富集数量几乎增加了两倍。这些结果表明,BP类别的富集稳定性更多地取决于生物学重复数,而不是文库大小。
TomExpress 和 TOGE 数据的 DE 综合分析最后,作者对所有的 TomExpress 数据和上述的TOGE数据进行了 DE 综合分析。TomExpress是一个为番茄品种提供用于公共RNA-Seq数据处理的专用浏览器和工具。作者在17个项目上进行了分析,每个项目包含2到18个生物学条件,最多8个生物学重复和100 M读数,从而模拟所有项目的所有成对生物学条件的所有可能的DE分析,以匹配不同的重复数量和文库大小。对于每种生物学条件,模拟了2-21次重复,文库大小为 5、10、15、20 和 25 M reads(每次模拟重复3次)。然后进行DE分析以提取阈值为0.05的DE基因数量以控制FDR。结果如图8所示,可以看出,我们至少需要 4 次重复和 20 M reads才能获得大量 DE 基因,即大约 1000 个 DE 基因(红色箱线图的最小值)。显然,这1000个DE基因大致对应于计算机中可以找到的最小基因,只有其他实验方法(如qPCR分析)才能验证差异表达的基因。然后,为了获得几乎相同数量的DE基因,无论研究哪种条件,我们都需要大约5个或6个重复,分别有10 M和15 M reads。我们还可以从图8中看到,在全基因组范围内,新的DE基因的数量在10次重复后趋于最小。
相关阅读:转录组及其他RNA测序最低需要几个生物学重复?差异分析软件到底哪家强?| 转录调控专题
植物RNA多组学研究的正确打开方式全部在这里了,套餐组合任意挑选 | 转录调控专题
云平台在线LEfSe差异分析|OmicStudio重磅云工具
点击下方图片进入云平台资料汇总:
所见即所得,绘图高规格联川云平台,让科研更自由